联合学习(FL)能够通过定期聚合培训的本地参数来在多个边缘用户执行大的分布式机器学习任务。为了解决在无线迷雾云系统上实现支持的关键挑战(例如,非IID数据,用户异质性),我们首先基于联合平均(称为FedFog)的高效流行算法来执行梯度参数的本地聚合在云端的FOG服务器和全球培训更新。接下来,我们通过调查新的网络知识的流动系统,在无线雾云系统中雇用FEDFog,这促使了全局损失和完成时间之间的平衡。然后开发了一种迭代算法以获得系统性能的精确测量,这有助于设计有效的停止标准以输出适当数量的全局轮次。为了缓解级体效果,我们提出了一种灵活的用户聚合策略,可以先培训快速用户在允许慢速用户加入全局培训更新之前获得一定程度的准确性。提供了使用若干现实世界流行任务的广泛数值结果来验证FEDFOG的理论融合。我们还表明,拟议的FL和通信的共同设计对于在实现学习模型的可比准确性的同时,基本上提高资源利用是必要的。
translated by 谷歌翻译
As the quality of optical sensors improves, there is a need for processing large-scale images. In particular, the ability of devices to capture ultra-high definition (UHD) images and video places new demands on the image processing pipeline. In this paper, we consider the task of low-light image enhancement (LLIE) and introduce a large-scale database consisting of images at 4K and 8K resolution. We conduct systematic benchmarking studies and provide a comparison of current LLIE algorithms. As a second contribution, we introduce LLFormer, a transformer-based low-light enhancement method. The core components of LLFormer are the axis-based multi-head self-attention and cross-layer attention fusion block, which significantly reduces the linear complexity. Extensive experiments on the new dataset and existing public datasets show that LLFormer outperforms state-of-the-art methods. We also show that employing existing LLIE methods trained on our benchmark as a pre-processing step significantly improves the performance of downstream tasks, e.g., face detection in low-light conditions. The source code and pre-trained models are available at https://github.com/TaoWangzj/LLFormer.
translated by 谷歌翻译
Barlow Twins自制学习目标既不需要负样本或不对称的学习更新,从而与计算机视觉中当前最新艺术相提并论。因此,我们提出了音频Barlow双胞胎,这是一种新颖的自我监督音频表示方法,将Barlow Twins适应音频域。我们在大规模音频数据集音频集上预先培训,并评估来自2021年HEAR 2021挑战的18个任务的学习表现质量,从而取得了超越或以其他方式与当前最新的结果相同的结果。 - 例如,歧视自我监督的学习方法来表示音频表示学习。https://github.com/jonahanton/ssl_audio上的代码。
translated by 谷歌翻译
提出了在不确定环境中运行的机器人的分配强大风险分配到基于抽样的运动计划算法中的集成。我们通过将整个计划范围内定义的分配稳健的关节风险约束分解为鉴于总风险预算的个人风险限制,进行了不均匀的风险分配。具体而言,使用单个风险约束定义的确定性收紧,以定义我们提出的确切风险分配程序。我们将风险分配技术嵌入基于抽样的运动计划算法中的想法实现了保守的,但越来越多的风险可行的轨迹,以进行有效的状态探索。
translated by 谷歌翻译
得益于语音情绪识别(SER),计算机可以以情感智能的方式理解并与人互动。但是,可以显着改善SER在交叉和现实世界中的实时数据供稿方案中的性能。无法将现有模型调整到新域是SER方法的缺点之一。为了应对这一挑战,研究人员开发了域的适应技术,这些技术转移了模型在整个领域中学习的知识。尽管现有的域适应技术已经改善了跨域的性能,但可以改进它们以适应现实世界中的实时数据提要情况,在这种情况下,模型可以在部署时可以自动调整。在本文中,我们提出了一种基于强化的学习策略(RL-DA),用于在与环境互动并收集持续反馈的同时,将预训练的模型调整为现实世界中的实时数据供稿设置。 RL-DA对SER任务进行了评估,包括跨语言和跨语言域自适应模式。评估结果表明,在实时数据供稿设置中,RL-DA在跨科普斯和跨语言场景中的基线策略分别优于基线策略。
translated by 谷歌翻译
模糊文物可以严重降低图像的视觉质量,并且已经提出了许多用于特定场景的脱模方法。然而,在大多数现实世界的图像中,模糊是由不同因素引起的,例如运动和散焦。在本文中,我们解决了不同的去纹身方法如何在一般类型的模糊上进行。对于深入的性能评估,我们构建一个名为(MC-Blur)的新型大规模的多个原因图像去孔数据集,包括现实世界和合成模糊图像,具有模糊的混合因素。采用不同的技术收集所提出的MC-Blur数据集中的图像:卷积超高清(UHD)具有大核的锐利图像,平均由1000 FPS高速摄像头捕获的清晰图像,向图像添加Defocus,而且真实-world模糊的图像由各种相机型号捕获。这些结果概述了当前的去纹理方法的优缺点。此外,我们提出了一种新的基线模型,适应多种模糊的原因。通过包括对不同程度的特征的不同重量,所提出的网络导出更强大的特征,重量分配给更重要的水平,从而增强了特征表示。新数据集上的广泛实验结果展示了多原因模糊情景所提出的模型的有效性。
translated by 谷歌翻译
我们介绍了445名人员和计算机生成的文件的新型语料库,包括约27,000个条款,用于语义条款类型和相干关系,允许人工和自然话语模式的细节比较。该语料库涵盖了正式和非正式的话语,并包含使用微调GPT-2生成的文件(Zellers等,2019)和GPT-3(棕色等,2020)。我们通过提供初步证据,展示该语料库的有用性,通过提供初步证据,以提供较少,更短,更频繁的通电话条款关系与计算机生成的叙述和论点的较低质量相关。
translated by 谷歌翻译
一般矩阵乘法或GEMM内核在高性能计算和机器学习中占据中心位置。最近的NVIDIA GPU包括Gemm加速器,如Nvidia的张量核心。他们的剥削受到双语言问题的阻碍:它需要低级编程,这意味着低程序员的工作效率或使用只提供有限组件集的库。由于建立的组件方面的REPRASING算法经常引入开销,因此图书馆缺乏灵活性限制了探索新算法的自由。因此,使用GEMMS的研究人员无法立即享受编程生产力,高性能和研究灵活性。在本文中,我们解决了这个问题。我们在科学朱莉娅编程语言中展示了三组抽象和接口来编程宝石。界面和抽象共同设计用于研究人员的需求和朱莉娅的特征,以实现足够的担忧和灵活性的充分分离,以便在不支付性能价格的情况下轻松地扩展基本宝石。将我们的Gemms与最先进的图书馆Cublas和Cutlass进行比较,我们证明我们的性能在图书馆的相同球场中,并且在某些情况下甚至超过它,而无需在CUDA C ++中编写单行代码或者组装,而不面临灵活限制。
translated by 谷歌翻译
混合模拟和数字波束成形收发器在解决下一代毫米波(MM波)大规模MIMO(多输入多输出)系统中的昂贵硬件和高训练开销的挑战。然而,在混合架构中缺乏完全数字波束成形和MM波的短相干时间对信道估计施加了额外的约束。在解决这些挑战的前提是,主要集中在窄带信道上,其中采用基于优化的或贪婪算法来导出混合波束形成器。在本文中,我们介绍了用于频率选择,宽带MM波系统的信道估计和混合波束形成的深度学习(DL)方法。特别地,我们考虑大规模的MIMO正交频分复用(MIMO-OFDM)系统,并提出包括卷积神经网络(CNN)的三种不同的DL框架,其接受接收信号的原始数据作为输入和产生信道估计和混合波束形成器在输出。我们还介绍了离线和在线预测方案。数值实验表明,与目前的最先进的优化和DL方法相比,我们的方法提供了更高的频谱效率,较小的计算成本和更少的导频信号,以及对接收的导频数据中的偏差较高的差异,损坏的信道矩阵和传播环境。
translated by 谷歌翻译